Loading...
2024. 6. 17. 21:49

L1 regularization vs. L2 regularization vs. elastic net 비교하기

1. elastic net 알고리즘 L1 regularization과 L2 regularization을 모두 사용한 regularization loss에 L1 term과 L2 term의 선형결합을 더해서 모델을 학습시키는 알고리즘   2. L1 , L2, elastic net 비교 L1, L2는 모두 계수 $\lambda$가 크면 클수록 parameter를 축소시킨다. L2는 parameter를 0으로 근사시키나 L1은 parameter를 완전하게 0으로 축소시키는 경향이 있다. L1은 무수히 많은 변수들이 있는데 영향력이 강력한 변수들은 별로 없다고 생각이 들면 대부분의 변수를 0으로 축소시켜 일부 변수만 선택하고자할때 유리함 그러나 L1은 covariate가 sample에 비해 충분히 많을 때 상관관..

2024. 5. 30. 00:57

딥러닝 시대의 parameter search

1. history 사람이 프로그래밍을 통해 모델을 설계하여 일을 자동으로 해주는 도구를 만들었지만  초기에는 hyperparameter밖에 없어서 사람이 모든 모수를 직접 정해야했다 머신러닝 시대로 오면서 데이터의 어떤 feature를 주로 쓸 지 모델 설계를 사람이 여전히 해야했지만 일부 parameter를 모델이 자동으로 찾아주었다. 물론 여전히 많은 hyperparameter가 존재했다. 딥러닝 시대로 오면서 사람이 input, output을 던져주면 모델이 알아서 feature를 잡아 모델을 설계했고 대부분의 parameter도 알아서 찾아준다. 극히 일부의 hyperparameter는 여전히 존재했다. 추후에는 진짜 모델 설계부터 parameter search까지 기계가 알아서 해주는 시대가 ..

2024. 5. 9. 23:43

결정을 기계에 맡기는 시대(deductive, inductive)

1. decision making  1) deductive 모든 사람은 죽는다. 소크라테스는 사람이다. 따라서 소크라테스는 죽는다 이미 정의된 혹은 증명된 사실들을 바탕으로 원하는 가설들을 증명하는 과정     참고로 7C2는 7개 중에서 2개를 선택하는 경우의 수인데 이 모든 경우의 수들이 노란색 동그라미들에 전부 대응시킬수 있어서 1+2+3+4+5+6=7C2가 성립 전제에 따라 바뀌는 결과 10진수에서는 1+1=2이지만, 2진수에서는 1+1=0 12진수에서는 1+15=4, 13진수에서는 1+5=-7(6이라 해도 되긴 하는데 1+5 = 6보다는 -7로 해서 다르게 할려고 쓴것 같음)   전제가 참이면 결론이 참이다  2) inductive 해가 동쪽에서 떠서 서쪽에서 뜨는 것은 수만년 전부터 많이 관찰..

2024. 4. 15. 23:37

batch normalization 개념 간단하게

internal covariate shift 현상을 해결하기 위해 등장 layer를 지날수록 layer의 parameter의 변화에 따라 dataset의 분포가 변화한다고 생각한 것이다. 위와 같이 data가 layer를 지나가면서 분포가 변화한다고 생각한 것이 covariate shift 그런데 진짜있는 것인지는 논란이 많다 batch normalization은 각 layer마다 batch set을 normalization하여 분포의 변형을 막겠다는 것이다. batch의 평균과 분산을 구해서 각 입력값을 normalize 시킨다 마지막 $\gamma , \beta$는 normalize하면 activation의 nonlinearity를 잃어버리기 때문에 이를 조정하기 위함이고 학습해야하는 paramete..

2024. 4. 2. 01:32

hyperparameter 개념 간단하게

1. hyperparameter와 parameter의 차이? hyperparameter는 학습과정에서 control할 수 있는 parameter value를 의미하고 학습 전에 사람이 직접 설정해줘야함 parameter는 모델이 학습과정에서 자동으로 배워나가는 값 hyperparameter tuning이란 이러한 learning 알고리즘에서 hyperparameter를 최적화하는 과정임 2. hyperparameter optimization model system의 매커니즘에 영향을 줄 수 있는 여러 요소들 batch_size, learning rate, loss, k-fold, dropout, regularization, optimizer, hidden layer 종류는 많음 hyperparameter..

2024. 3. 1. 02:06

라그랑주 승수법 간단하게

라그랑주 승수법은 제약조건이 있을 때 함수를 최대화, 최소화시키는 방법이다 최적화시키고자하는 함수 f(x,y)와 제약조건은 보통 g(x,y) = c 형태로 주어진다. 변하는 값은 함수 f(x,y)인데 이것을 변화시키다가 g(x,y) = c와 서로 접할때 함수 f가 최대가 되는 경우가 가장 쉬운 경우 https://deepdata.tistory.com/1115 gradient descent를 위한 gradient vector의 이론적 설명 간단하게 1. 방향도함수(directional derivate) 이변수함수 z = f(x,y)와 임의의 단위벡터(norm이 1인 벡터) u = (a,b)에 대하여... 벡터 u를 지나는 평면으로 z = f(x,y)를 잘랐을때 생기는 곡선 위 (x0,y0,z0)위에서의 접..